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(54) Title: ^CONFIGURABLE PROCESSOR 

^ (54) Bezeicbnung: RECONFIGURIERBARER PROZESSOR 

\o 

(57) Abstract: The invention relates to a processor with a reconfigurable field of data-processing cells and a register means. Said 
f^) register means is provided with a data stream storage means designed to store a data stream or parts thereof. 

Q (57) Zusammenfassung: Die Erfindung betrifft einen Prozessor mit einem rekonfigurierbaren Feld von datenverarbeitenden Zellen 
^ und einem Registermittel. Hierbei ist vorgesehen, dag das Regiestermittel ein Datenstromspeichermittel auf weist, das dazu ausgelegt 
ist, einen Datenstrom bzw. Teile davon zu speichern. 
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Rekonf igurierbarer Prozessor 

15 

Beschreibung 

Die vorliegende Erfindung betrifft das oberbegrif f lich Bean- 
spruchte und befafit sich somit mit rekonf igurierbaren multi- 
20 dimensionalen Logikfeldern und deren Betrieb. 

Rekonf igurierbare Element e werden abhangig von der auszufuh- 
renden Applikation unterschiedlich und applikationsentspre- 
chend ausgestaltet . Unter einer rekonf igurierbaren Architek- 

25 tur werden vorliegend Bausteine (VPU) mit konf igurierbarer 
Funktion und/oder Vernetzung verstanden, insbesondere inte- 
grierte Bausteine mit einer Mehrzahl von ein- pder mehrdi- 
mensional angeordneten arithmetischen und/oder logischeh 
und/oder analogen und/oder. speichernden und/oder in- 

30 tern/extern vernetzenden Baugruppen, die direkt oder durch 
ein Bussystem miteinander verbunden sind. 

l 
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Zur Gattung dieser Bausteine zahlen insbesondere systolische 
Arrays, neuronale Netze, Mehrprozessor Systeme, Prozessoren 
mit mehreren Rechenwerken und/oder logischen Zellen und/oder 
kommunikativen/peripheren Zellen (10), Vernetzungs- und 
Netzwerkbausteine wie z.B. Crossbar-Schalter , ebenso wie be- 
kannte Bausteine der Gattung FPGA, DPGA, Chameleon, VPUTER, 
etc.. Hingewiesen wird insbesondere in diesem Zusammenhang 
auf-die folgenden Schutzrechte und Anmeldungen desselben An- 
melders: DE 44 16 881 Al, DE 197 81 412 Al, DE 197 81 483 
Al, DE 196 54 846 Al , DE 196 54 593 Al, DE 197 04 044.6 Al , 
DE 198 80 129 Al, DE 198 61 088 Al , DE 199 80 312 Al, 
PCT/DE 00/01869, DE 100 36 627 Al, DE 100 28 397 Al, 
DE 101 10 530 Al, DE 101 11 014 Al , PCT/EP 00/10516, 
EP 01 102 674 Al, DE 198 80 128 Al, DE 101 39 170 Al , 
DE 198 09 640 Al, DE 199 26 538.0 Al , DE 100 50 442 Al, so- 
wie PCT/EP 02/02398, DE 102 40 000, DE 102 02 044, DE 102 02 
175, DE 101 29 237, DE 101 42 904, DE 101 35 210, EP 01 129 
923, PCT/EP 02/10084, DE 102 12 622, DE 102 36 271, DE 102 
12 621, EP 02 009 868, DE 102 36 272, DE 102 41 812, DE 102 
36 269, DE 102 43 322, EP 02 022 692, PACT40 (Anmelde-NR. 
fehlt noch!) . Auf diese Dokumente wird unten durch die an- 
melderinternen Bezugszeichen Bezug genotnmen. Diese sind 
hiermit zu Of f enbarungszwecken vollumf anglich eingegliedert . 

Die o.g. Architektur wird beispielhaft zur Verdeutlichung 
herangezogen und im folgenden VPU genannt . Die Architektur 
besteht aus beliebigen arithmetischen, logischen (auch Spei- 
cher) und/oder Speicherzellen und/oder Vernetzungszellen 
und/oder kommunikativen/peripheren (10) Zellen (PAEs) , die 
zu einer ein- oder mehrdimensionalen Matrix (PA) angeordnet 
sein konnen, wobei die Matrix unterschiedliche, beliebig 
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ausgestaltete Zellen aufweisen kann; auch die Bussysteme 
werden dabei als Zellen verstanden. Der Matrix als ganzes 
oder Teilen davon zugeordnet ist eine Konf igurationseinheit 
(CT, Ladelogik) , die die Vernetzung und Funktion des PA kon- 
figuriert. Die CT kann z. B. als dedizierte Einheit gem. 
PACT05, PACT10, PACT17, ausgestaltet sein oder als Host- 
Mikroprozessor nach P 44 16 881.0-53 , DE 102 06 856.9 dem 
PA zugeordnet bzw. mit oder durch solche realisiert sein. 

Die Erfindung beschreibt ein Prozessormodell fur rekonfigu- 
rierbare Architekturen, das in wesentlichen Punkten an das 
Modell eines klassischen Prozessors angelehnt ist. Zum besse- 
ren Verstandnis wird zunachst das klassische Modell naher be- 
trachtet. Dabei wird auf die Betrachtung prozessorexterner 
Ressourcen (z. B. Hauptspeicher fur Programm und Daten etc.) 
verzichtet . 

Ein Prozessor flihrt in einem ProzeJi ein Programm aus. Das 
Programm besteht dabei aus einer endlichen Menge von Befehlen 
(Diese Menge darf Elemente mehrfach enthalten) sowie Informa- 
tionen liber die Reihenfolge, in der Befehle auf einanderf olgen 
konnen. Diese Reihenfolge wird primariiber die lineare Anord- 
nung der Befehle im Programmspeicher und die Ziele von 
Sprungbef ehlen festgelegt. 

Befehle werden dabei ublicherweise liber ihre Adresse identi- 
fiziert. Als Beispiel zeigt Figur 1 (a) ein Programm in VAX- 
Assembler zur Exponentiation. 

Man kann ein Programm auch als gerichteten Graphen auffassen, 
wobei die Befehle die Knoten bilden, und die Reihenfolge als 
Kanten des Graphen modelliert wird. Dieser Graph wird in Fi- 
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gur 1 (b) gezeigt. Der Graph besitzt dabei einen eindeutigen 
Start- und einen eindeutigen Endknoten. (Im Bild nicht ge- 
zeigt , durch die Pfeile angedeutet.) Die Kanten konnen zu- 
satzlich mit Obergangswahrscheinlichkeiten markiert werden. 
Diese Information kann dann zur Sprungvorhersage genutzt wer- 
den. Die Sprungvorhersage kann wiederum verwendet werden, urn 
Konfigurationen in den Speicher der CT einer VPU vorzuladen 
(vgl. Patent anmeldung PACT10, die zu Of f enbarungszwecken 
vollumfanglich eingegliedert ist) und/oder Konfigurationen in 
den Konfigurationsstack einer PAE vorzuladen (gemali Patentan- 
meldungen PACT13, PACT17, PACT31, die zu Of f enbarungszwecken 
vollumfanglich eingegliedert sind) . Durch das Vorladen von 
Konfigurationen in den lokalen Speicher der CT (vgl. PACT10, 
17) und/oder in den PAE-lokalen Konf igurationscache (PACT17, 
31) konnen die Konfigurationen dann bei Bedarf schneller ab- 
gerufen werden, was zu einer erheblichen Ef f izienzsteigerung 
f uhrt . 

Durch die lineare Anordnung der Befehle im Speicher ergeben 
sich mehr Abhangigkeiten als unbedingt notwendig. So sind z. 
B. im gezeigten Beispiel die Befehle DECL und MULL2 voneinan- 
der unabhangig. Dies geht aus dem Graphen in Figur 1 (b) 
nicht hervor. Das Modell kann entsprechend erweitert werden 
durch Aufteil- und Zusammenf assungsknoten. Dies ist in Figur 
1(c) gezeigt. 

Heutige Prozessoren erkennen derartige Moglichkeiten der Par- 
allelausfiihrung schon zum Teil in Hardware und verteilen die 
Operationen auf verschiedene Rechenwerke. Fur die weiteren 
Betrachtungen wird das Modell aus Figur 1(b) verwendet. Die 
Behandlung der zusatzlichen Komplexitat des Aufteilens und 
Zusammenfassens wird auf einen spateren Zeitpunkt verschoben. 
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Ein Prozefi braucht zu seiner Ausfuhrung auBer dem Programm 
weitere Ressourcen. Diese sind innerhalb des Prozessors die 
Register und die Status-Flags. 

Diese Ressourcen dienen dazu, Inf ormationen zwischen den ein- 
zelnen Befehlen des Programms zu ubermitteln. Es ist Aufgabe 
des Betriebssystems, dafiir zu sorgen, daft einem Prozefi die zu 
seiner Ausfuhrung bendtigten Ressourcen zur Verfugung stehen 
und bei seiner Beendigung wieder freigegeben werden. Heutige 
Prozessoren besitzen ublicherweise nur einen Registersatz, so 
dafi nur ein ProzeB gleichzeitig auf dem Prozessor ablaufen 
kann. Es ist nachvollziehbar, daft die Befehle von zwei unter- 
schiedlichen Prozessen in beliebiger Reihenfolge durchmischt 
ausgefuhrt werden konnen, solange beide Prozesse disjunkte 
Ressourcen verwenden (so, wenn z. B. ProzeB 1 die Register 0- 
3 und Prozefl 2 Register 4-7 verwendet) . 

Befehle eines Prozessors haben ublicherweise die folgenden 
Eigenschaf ten : 

- Ein Befehl wird wahrend der Ausfuhrung nicht unterbrochen. 

- Die Ausfiihrungszeit aller Befehle uberschreitet einen ge- 
wissen Maximalwert nicht. 

- Ungultige Befehle werden vom Prozessor erkannt. 

Die Aufgabe der Erfindung besteht darin, Neues fur die ge- 
werbliche Anwendung bereitzustellen. 

Die Losung der Aufgabe wird unabhangig beansprucht . Bevor- 
zugte Ausfuhrungsformen finden sich in den Unteranspruchen. 

2 Ubertragung des Mo dells auf die VPU-Archifcektur 

Die beispielhafte VPU-Architektur ist eine rekonf igurierbare 
Prozessorarchitektur, die wesentlich durch die Patent (e) (bzw. 
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Anmeldungen PACT01, 02, 03, 04, 05, 07, 08, 09, 10, 13, 17, 
22, 23, 24, 31 definiert ist. Diese Schriften werden, wie 
vorerwahnt, zu Of f enbarungszwecken vollumf anglich eingeglie- 
dert. Ebenfalls wird auf PACT11, 20, 27 verwiesen, in denen 
entsprechende Hochsprachen-Compiler beschrieben sind, sowie 
auf PACT 21, worin ein entsprechender Debugger beschrieben 
ist. Auch diese Schriften werden zu Of f enbarungszwecken voll- 
standig eingegliedert . 

Der klassische Befehl wird ersetzt durch eine Konf iguration 
im bekannten Sinne, im folgenden Kornplex-Bef ehl (Complex In- 
truction Word, CIW) genannt. Die Kanten der Graphen in Figur 
1 (b) werden realisiert durch Triggersignale an die CT. Damit 
kann ein vollstandiges Programm realisiert werden, indent nach 
der erfolgten Abarbeitung eines CIW die CT und/oder der Kon- 
figurationscache der PAEs (s. PACT 31 und/oder wie nachfolgend 
beschrieben) das nachfolgende CIW ladt. 

Es wurde zunachst erkannt, wie eine Entsprechung von Regi- 
stern herkommlicher Prozessoren auf der VPU-Architektur ge- 
staltet werden kann. Dabei wurde herausgef unden, dali eine we- 
sentliche Vorraussetzung zur Registerimplementierung auf fol- 
gendera beruht: 

- Da die VPU im wesentlichen auf Datenstromen arbeitet, muli 
ein Register in der Lage sein, einen Datenstrom bzw. Teile 
davon zu speichern. 

- Ein Register muli alloziert und freigegeben werden konnen. 
Dabei muli es so lange belegt bleiben wie das Programm auf der 
VPU lauft. (HW-Unterstiitzung der Ressourcenverwaltung des Be- 
triebssystems . ) 

- Gleichzeitiges Lesen und Schreiben (Read-Modif y-Write) des- 
selben Registers sollte moglich sein. 
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Es wird eine angegeben, wie dies in einem Prozessor erreicht 
werden kann und es wird weiter erf indungsgemafl vorgeschlagen, 
entsprechend modifizierte RAM-PAEs zu verwenden. Diese sollen 
zunachst als Register verwendet werden. 

Eine ausfuhrliche Beschreibung der Register-PAEs bevorzugt 
durch erweiterte und/oder modifizierte RAM-PAREs ist nachfol- 
gend in Abschnitt 4 gegeben. Eine Konf iguration (CIW) wird in 
dem Moment vom Array entfernt, in dem sie uber einen Trigger 
an die CT das nachste CIW anfordert. Der Reconf ig-Trigger 
(vgl. PACT08) kann dabei entweder uber den Reconf ig-Port ei- 
ner ALU-PAE oder implizit durch die CT erzeugt werden. In op- 
timal ausgestalteten Versionen sollte dies grundsatzlich von 
der CT aus erfolgen. 

Ebenso wie Befehle auf einem klassischen Prozessor nicht un- 
terbrochen werden, lauft bevorzugt auch ein CIW auf der VPU 
ohne Unterbrechung bis es das nachste CIW uber einen Trigger 
an die CT anfordert. Es wird nicht vorzeitig beendet. Urn den- 
noch einen regelmafligen Bef ehlswechsel sicherstellen zu kon- 
nen (dieser wird spater fur Multitasking benotigt) , wird die 
maximale Ausf uhrungszeit eines CIW nach oben beschrankt. Da- 
mit wird die zweite Eigenschaft eines Befehls gefordert. Es 
ist bevorzugt die Aufgabe des Compilers, dafur zu sorgen, dafi 
jedes erzeugte CIW dieser Bedingung geniigt. Ein CIW, das die- 
se Bedingung verletzt, ist ein ungultiger Befehl. Er kann von 
der Hardware wahrend der Ausfiihrung z. B. uber einen 
Watchdog-Timer der nach Ablauf einer bestimmten Zeit einen 
Trigger quasi als Warnsignal generiert, erkannt werden. 

Bevorzugt wird das Warnsignal als TRAP durch die Hardware 

und/oder das Betriebssystem verwaltet. Ebenfalls bevorzugt 

wird das Signal an die CT gesendet. Ein ungultige CIW bevor- 
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zugt iiber einen Reconf ig-Trigger , der das reset-ahnliche Lo- 
schen samtlicher Konf igurationen im PA bewirkt, beendet 
und/oder ebenfalls bevorzugt eine Exception an das Betriebs- 
system geschickt. 

Da die CIWs sehr lang sind, sind dementsprechend auch die In- 
struction-Fetch- (Zeit zwischen Rekonf igurations-Trigger der 
PAEs an die CT (vgl. PACT08) und Konfguration ist im FILMO- 
Cache geladen) und Instruction-Decode-Zeiten (Verteilung der 
Konfigurations-Daten vom FILMO-Cache (siehe PACT10) in die 
Konf igurat ions-Register der PAEs) sehr lang. Dadurch ist die 
Auslastung der Execution Units (also dem PA im VPU- 
Prozessormodell) durch einen ProzefJ nicht sehr hoch. Wie die- 
ses Problem mit mehreren Prozessen geldst werden kann, wird 
nachfolgend in Abschnitt 6 gezeigt. 



3 Unterprogramme 

Ein Unterprogramm in der Graphendarstellung ist ein Teilgraph 
eines Programms mit eindeutig bestimmten Eingangsknoten. Die 
Kante des Unterprogrammauf ruf s innerhalb des Graphen ist da- 
durch statisch bekannt. Die weiterf uhrende Kante am Ausgangs- 
knoten des Unterprogramms ist jedoch nicht statisch bekannt. 
In Figur 2 wird dies verdeutlicht . Die Kanten vom Hauptpro- 
gramm (0201/0202) zum Unterprogramm (0205) sind vorhanden, 
die Fortfuhrung (0206) nach dem Unterprogramm ist jedoch dem 
Unterprogramm 0205 nicht bekannt. Die jeweilige Fortfuhrung 
ist fest mit dem Unterprogrammauf ruf verbunden (durch gestri- 
chelte bzw. gepunktete Linien markiert) . Sie muii vor dem Er- 
reichen des Eingangsknotens in geeigneter Weise in den Gra- 
phen eingefugt werden (0207 f 0208). Dies ist in Figur 3 ver- 
deutlicht. 
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In klassischen Prozessoren geschieht dies ublicherweise da- 
durch, daft beim Unterprogrammauf ruf (Call, 0203 , 0204) die 
Adresse des auf das Unterprogramm folgenden Befehls (das ist 
genau die fehlende Kante) auf einem Call-Stack abgelegt wird. 
Von dort kann sie beim Rucksprung (Return) geholt werden. 

Obertragen auf die VPU wird also prinzipiell eine Stack-PAE 
benotigt. Dies ist genauso wie die Register-PAEs eine Prozeli- 
Ressource und wird genauso verwaltet. Das CIW, das bei seiner 
Beendigung den Unterprogrammauf ruf veranlafit, konfiguriert 
die Riicksprung-Kante auf das Stack-PAE. Durch einen Trigger 
veranlalit das letzte CIW des Unterprogramms das Stack-PAE, 
den obersten Eintrag vom Stack zu entfernen und als Rekonfi- 
gurationsauf ruf an die CT zu schicken. 

Bei der Implementierung eines Stacks kann beispielsweise eine 
der nachfolgende Methoden angewendet werden: 

- Eine Losung innerhalb der CT. Der Stack wird innerhalb der 
CT in software oder als dedizierte Hardwareeinheit realsiert. 
Dabei kann eine spezielle Config-ID (z. B. -1) als Rucksprung 
reserviert sein. Wenn der CT diese ID erhalt, ersetzt er sie 
durch den obersten Eintrag seines lokal verwalteten Stacks. 

- Eine Stack-PAE, die beispielsweise als eine modifizierte 
RAM-PAE nach PACT 13 Fig. 21 aufgebaut sein kann. 
Stack-Overflow sowie Stack-Underflow sind Exceptions, die be- 
vorzugt an das Betriebssystem weitergegeben werden. 

4 Das Register-PAE 

Ein klassisches Prozessorregister enthalt zu jedem Zeitpunkt 

ein Datenwort. Ein Befehl kann den Registerinhalt lesen, 

schreiben oder verandern (Read-Modif y-Write) . 
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Ein VPU-Register wird nun die gleichen Eigenschaf ten aufwei- 
sen, allerdings enthalt es statt eines einzelnen Wertes er- 
findugnsgemaft einen Wertevektor oder Teile davon. Es sit mog- 
lich und ublicherweise bevorzugt, daft die Organisation eines 
VPU-Registers als eine Art FIFO erfolgt. In bestimmten Fallen 
kann aber auch wahlfreier Zugriff erforderlich werden. Im 
folgenden werden die drei oben angesprochenen Registerzugrif- 
fe im einzelnen erlautert. Dabei wird ein wahlfreier Zugriff 
hier nicht betrachtet. 

Lesezugriff Beim Start eines CIW enthalt das Register einen 
Datenvektor unbekannter Lange. Die einzelnen Elemente des 
Vektors werden sequentiell entnommen. Dabei wird beim letzten 
Element des Vektors ein Trigger generiert, der anzeigt, dass 
das Register jetzt leer ist und das CIW terminieren kann. Der 
Zustand des Registers kann dabei mit 3 Zeigern charakteri- 
siert werden, sie zeigen auf den ersten (0403) , letzten 
(0401) und aktuellen (0402) Eintrag im Datenvektor. Die Stel- 
lung der Zeiger zu Beginn eines CIW wird beispielhaft in Fi- 
gur 4 (a) gezeigt. Dabei steht der Zeiger fur den aktuellen 
Eintrag auf dem ersten Eintrag. 

Figur 4 (b) zeigt in einem Beispiel, wie die Zeigerstellung 
eines Registers am Ende eines CIW aussehen kann. Im dort ge- 
zeigten Fall wurde der Vektor nicht vollstandig gelesen. 

Folglich muft entschieden werden, was mit dem Registerinhalt 
geschieht. Es gibt bevorzugt die folgenden Moglichkeiten: 
- Das Register wird geleert. Alle nicht verarbeiteten Daten 
werden geloscht. Der Zeiger fur den aktuellen Eintrag wird 
auf den letzten Eintrag gesetzt. 
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- Das Register wird auf den Ursprungszustand zuruckgesetzt . 
Dadurch kann das nachste CIW wieder auf den vollen Datenvek- 
tor zugreifen. Der Zeiger fur den aktuellen Eintrag wird auf 
den ersten Eintrag zuruckgesetzt. 

- Nur die bereits gelesenen Daten werden aus dem Register 
entfernt. Die ungelesenen Daten stehen fur das nachste CIW 
zur Verfugung. Die Zeiger werden dabei nicht verSndert. 

Im Anschlufl daran werden die Werte zwischen dem ersten Ein- 
trag und dem aktuellen Eintrag aus dem Register entfernt. Sie 
stehen fur weitere Operationen nicht mehr zur Verfugung. 

Die dritte Moglichkeit ist insbesondere dann interessant, 
wenn ein CIW aufgrund der maximalen Ausfiihrungszeit fur ein 
CIW den Datenvektor nicht vollstandig verarbeiten kann. Siehe 
hierzu auch Abschnitt 7. 

Schreibzugriff Hier werden Daten sequentiell in das Register 
geschrieben. Dabei wird ein Trigger generiert, wenn der Full- 
stand des Registers einen bestimmten Wert erreicht. Je nach 
CIW kann dies eine der folgenden bevorzugten Moglichkeiten 
sein: 

- Das Register ist vollstandig gefiillt. 

- Es sind noch genau n Eintrage im Vektor frei. Dies beriick- 
sichtigt die Latenzzeit im CIW, durch die noch n Werte nach 
dem Trigger auf das Register laufen. 

- Das Register ist zu m% gefiillt. 

Ein CIW, das versucht, auf ein vollstandig gefulltes Register 
zu schreiben, ist ungultig und wird mit einer Exception been- 
det (Illegal Opcode) . Beim Start des CIW soil festgelegt 
sein, in welchem Zustand sich das Register befindet. Figur 5 
(a) zeigt ein Register vor einem Schreibzugrif f , das noch Da- 
ten enthalt. Es wird vorgeschlagen, dafi bestehende Daten kon- 
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nen geloscht werden, so dali der Schreibzugrif f mit einem lee- 
ren Vektor beginnt (Figur 5 (b) ) . Alternativ konnen die ge- 
schriebenen Daten auch an den bestehenden Inhalt angehangt 
werden. Dies zeigt Figur 5 (c) . Dies ist dann interessant, 
wenn das vorhergehende CIW nicht den kompletten Vektor erzeu- 
gen konnte aufgrund der maximalen Ausf uhrungszeit . 

Der Zustand des Registers nach erfolgter Schreiboperation 
zeigt Figur 5 (d) bzw. (e) . Die neu geschriebenen Daten sind 
dabei schraffiert gekennzeichnet . 

paralleler Schreib-/Leseztigrif f Die Beschrankung auf reine 
Schreib- bzw. Lesezugriffe erfordert eine hohere Registerzahl 
als notig. Wenn einem Register durch Lesezugriffe Daten ent- 
nommen werden, entsteht dadurch Platz, in dem Schreibdaten 
aufgenommen werden konnen. Es mufi lediglich sichergestellt 
werden, dass geschriebene Daten nicht vom gleichen CIW wieder 
gelesen werden konnen, d.h. dass eine klare Trennung zwischen 
den Lesedaten eines CIWs und den Schreibdaten des CIWs exi- 
stiert. Dazu wird in den FIFO eine virtuelle Trennlinie 
(0601) eingefuhrt. Das Register wurde vollstandig gelesen, 
wenn diese Trennlinie am Ausgang des FIFOs angelangt ist. Zur 
Festlegung dieser virtuellen Trennlinie konnen geeignete Mit- 
tel implement iert sein. 

Kann ein Schreibzugrif f fur ein Datenwort nicht ausgefuhrt 

werden, weil das Register noch mit ungelesenen Lesedaten 

blockiert ist, wird das CIW beendet und eine Illegal Opcode 

Exception erzeugt. Das Verhalten des Registers ist ansonsten 

genauso wie bei Schreib- und Lesezugriff erlautert. 

Zusatzlich soil spezifiziert werden, was mit der virtuellen 

Trennlinie zwischen Lese- und Schreibdaten geschieht. Diese 

kann entweder an der Stelle verbleiben, wo sie gerade steht. 
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Dies ist dann nutzlich, wenn ein CIW aufgrund der Zeitbe- 
schrankung beendet werde mufi - Alternativ wird die Trennlinie 
an das Ende aller Daten gesetzt. 

Kombinierte Schreib-/Lesezugrif f e sind allerdings problema- 
tisch, wenn das CIW mit einer Exception beendet wurde. In 
diesem Fall ist es nicht mehr ohne weiteres moglich, die Re- 
gister auf ihre Werte beim Start des CIW zuruckzustellen. Das 
Debugging kann dadurch zumindest erschwert werden, siehe auch 
nachfolgend in Abschnitt 8. 

Figur 6 zeigt die Funktionsweise an einem Beispiel. 0601 
kennzeichnet die virtuelle Trennlinie. Zu Beginn enthalt das 
Register Daten (a) , die im folgenden teilweise (b) bzw. voll- 
standig (c) gelesen werden. Neu geschriebene und gelesene 
Eintrage sind dabei durch unterschiedliche Schraffur gekenn- 
zeichnet. Die Teilbilder (d) und (e) zeigen den Zustand des 
Registers nach dem notwendigen Zeiger-Update, das die Trenn- 
linienlage verandert. Dies ist kein expliziter Schritt, son- 
dern wird hier nur zur Verdeutlichung dargestellt. Die gele- 
senen Eintrage raussen sofort entfernt werden, urn Platz fur 
die neu zu schreibenden Eintrage zu schaffen. 

Ein Prozeft, also ein Programm, das auch insbesondere bei ei- 
nem Multitasking-Betrieb Ressourcen mit anderen Programmen 
teilt, mufJ jedes benotigte Register allozieren, bevor er es 
verwenden kann. Dies geschieht bevor zugt uber ein zusatzli- 
ches Konfigurationsregister innerhalb der RAM- und/oder Regi- 
ster-PAE. Dort wird auch eingetragen, zu welchem ProzeB das 
Register jetzt gehort. Diese Konf iguration bleibt auch uber 
Rekonf igurationen hinweg erhalten. Das Register muli explizit 
vom CT freigegeben werden. Dies geschieht beispielsweise bei 

der Beendigung eines Prozesses. Mit der Konf iguration jedes 
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CIWs muli den Registern mitgeteilt werden, zu welchem ProzefJ 
das CIW gehort. Dies ermoglicht das Umschalten zwischen meh- 
reren Registersatzen. Das Verfahren wird nachfolgend genauer 
im Abschnitt 6 beschrieben. 



5 Interrupts 

Bei Interrupts muli zwischen zwei unterschiedlichen Typen un- 
terschieden werden. Zum einen gibt es die Hardware- 
Interrupts, wo der Prozessor auf ein externes Ereignis rea- 
gieren mufi. Diese werden ublicherweise vom Betriebssystem be- 
arbeitet und sind fur die laufenden Prozesse nicht sichtbar. 
Sie sollen hier nicht weiter behandelt werden. Der zweite Typ 
sind die Sof tware-Interrupts . Diese werden haufig benutzt, urn 
asynchrone Interaktionen zwischen Prozefi und Betriebssystem 
zu realisieren. So ist es z. B. unter VMS moglich, eine Lese- 
anforderung an das Betriebssystem zu schicken, ohne auf die 
eigentlichen Daten zu warten. Sobald die Daten vorhanden 
sind, unterbricht das Betriebssystem das laufende Programm 
und ruft asynchron eine Prozedur des Programms auf. Dieses 
Verfahren nennt sich dort Asynchronous System Trap (AST) . 

Dieses Verfahren kann in gleicher Form auf der VPU angewendet 
werden. Hierzu kann Unterstutzung im CT vorgesehen werden. 
Der CT weifi, ob eine asynchrone Routine fttr einen ProzefJ auf- 
gerufen werden muli. In diesem Fall wird der nachste Request, 
der vom Array kommt, nicht direkt abgearbeitet , sondern ge- 
speichert . 

Stattdessen wird eine Folge von CIWs eingefiigt, die zunachst 
die Prozessorstatus (die Registerinhalte) sichern, die asyn- 
chrone Routine ausfuhren und dann die Registerinhalte wieder- 

herstellen. Im Anschlufl daran kann der ursprvingliche Request 
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abgearbeitet werden . 
6 Multitasking 

In Abschnitt 2 wurde f estgestellt , daft die VPU-Architektur 
mit nur einem Prozefi unter Umstanden nicht optimal ausgela- 
stet werden kann, weil etwa aufgrund der Lange der CIWs sehr 
hohe Lade- und Dekodierungszeiten auftreten. Dieses Problem 
kann durch die gleichzeitige Ausfuhrung mehrerer Prozesse ge- 
lost werden. Hierbei werden auf der VPU nun erf indungsgemaft 
mehrere Registersatze vorgesehen, was erlaubt, daft beim Kon- 
textwechsel einfach zwischen den Registersatzen umgeschaltet 
werden kann und keine aufwendigen Register-Freiraum- und - 
Lade-Operationen erforderlich werden. Die Verarbeitungsge- 
schwindigkeit kann so erhoht werden. 

Wahrend der Ausftthrung von CIWs der Prozesse steht genUgend 
Zeit zur Verfugung, urn den nachsten Befehl des aktuellen Pro- 
zesses zu holen und uber den FILMO an die PAEs zu verteilen, 
bzw. aus dem Konf igurationscache in die PAEs zu laden (vgl 
PACT31) • Die optimale Anzahl an Registersatzen kann dabei in 
Abhangigkeit von der durchschnittlichen Ausf uhrungszeit eines 
CIW und den durchschnittlichen Lade- und Dekodierzeiten der 
CIWs bestimmt werden. 

Dabei kann Latenzzeit durch eine grofiere Anzahl Registersatze 
abgefangen werden. Wichtig fur die Funktion des Verfahrens 
ist, daft die durchschnittliche CIW-Laufzeit grofler ist als 
die jeweils effektiv benotigte Zeit zum Laden bzw. Dekodieren 
des CIW. 

Die korrespondierenden Register der unterschiedlichen Regi- 
stersatze liegen dabei fur den Programmierer auf derselben 
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PAE-Adresse. D.h. es konnen zu jedeia Zeitpunkt irnmer nur die 
Register eines Registersatzes verwendet werden. Der Kon- 
textwechsel zwischen den RegistersStzen kann dadurch reali- 
siert werden, dass vor jedem CIW der entsprechende Kontext an 
die PAEs ubertragen wird. Der Kontextswitch kann im Detail 
durch die PUSH/ POP Operationen nach PACT11 und/oder durch ei- 
ne besondere RAM-/Register-PAE Hardware wie in PACT 13 Fig. 21 
dargestellt automatisch erfolgen. In beiden Fallen ergibt 
sich ein ahnlicher Stack-Aufbau im Speicher. Jeder Stack- 
Eintrag speichert die Daten eines Prozesses. Ein Stackeintrag 
umfafit dabei den kompletten Inhalt aller Registers, mit ande- 
ren Worten samtlicher Speicherzellen aller Speicher die als 
Register fur einen Prozess dienen. Ebenso kann gemali PACT11 
ein Stackeintrag auch PA-interne Daten und Zustande enthal- 
ten. 

Im allgemeinen werden nun auf einem System mehr Prozesse vor- 
handen sein als Registersatze auf dem Prozessor. Das bedeu- 
tet, dafi gelegentlich ein Prozeli vom Prozessor entfernt wer- 
den mull. Dazu wird ahnlich wie beim Software-Interrupt eine 
Kante den Programmgraphen vom CT aufgetrennt. Die Registerin- 
halte des Prozesses werden gesichert und die vom Prozeli allo- 
zierten Prozessorressourcen i (Register, Stack-PAE, etc.) wie- 
der freigegeben. Die so f reigewordenen Ressourcen werden nun 
von einem anderen Prozefi alloziert. Dann werden die fur die- 
sen Prozefi gespeicherten Registerinhalte wieder zuriickge- 
schrieben und der Prozeli an dessen auf getrennter Kante fort- 
gesetzt. Das Sichern und Ruckladen der Registerinhalte kann 
dabei uber CIWs erfolgen. 

7 CIW und Schleif en 
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Aufgrund der oben geforderten Eigenschaf t, dafi ein CIW spate- 
stens nach einer gewissen Maximalanzahl an Takten terminieren 
mufi, konnen allgemeine Schleifen nicht ohne weiteres in ein 
CIW ubersetzt werden. Es ist immer moglich, den Schleifen- 
rumpf in ein CIW zu iibersetzen und die Schleif enkontrolle 
uber Rekonf iguration abzuwickeln. Dies kostet jedoch oftmals 
erheblich Performance. Dieser Abschnitt zeigt, wie eine 
Schleife so umgeformt werden kann, daB die Anzahl der Rekon- 
figurationen minimiert wird. 

Im folgenden wird von folgendem Programmstiick ausgegangen: 

while (condition) { 

something; 

} 

Dabei soli sowohl die Laufzeit von condition wie something 
bestimmt oder nach oben abgeschatzt werden konnen. Die 
Schleife kann nun wie folgt umformuliert werden: 

while (1) { 

if (! condition) goto finish; 

something; 

} 

finish: 

Nun kann der Schleif enrumpf so oft iteriert werden, wie es 
die maximale Laufzeit eines CIW zulafit. Hierzu wird eine neue 
Variable z eingefuhrt, die weder in condition noch in some- 
thing vorkommt. Das Programm sieht nun f olgendermaften aus: 



while (1) { 

for (z-0; z<MAX; z++) { 
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if (! condition) goto finish; 

something; 

} 

} 

finish: 

Die for-Schleife besitzt eine vom Compiler bestimmbare maxi- 
male Laufzeit. Sie kann deshalb auf ein CIW abgebildet wer- 
den. MAX wird vom Compiler in Abhangigkeit von der maximalen 
Laufzeit und den Einzellauf zeiten der Anweisungen bestimmt. 

Das so entstehende CIW hat zwei Ausgangskanten. Der Ausgang 
uber das goto fuhrt zum nachsten CIW, der Ausgang uber das 
regulare Ende des for bildet eine Kante auf sich selbst. Dar- 
iiber wird die Endlosschleif e realisiert. 

8 Debugging 

Im klassischen Prozessor erfolgt das Debugging auf Befehlsba- 
sis, d. h. der Ablauf eines Programms kann jederzeit zwischen 
zwei Befehlen unterbrochen werden. An diesen Unterbrechungs- 
punkten hat der Programmierer Zugriff auf die Register. Er 
kann sie ansehen und modif izieren. Unterbrechungspunkte kon- 
nen auf verschiedene Art und Weise realisiert werden. Zum ei- 
nen kann das Programm modifiziert werden, d. h. der Befehl, 
vor dem angehalten werden soli, wird durch andere Befehle er- 
setzt, die den Debugger aufrufen. Im Graphenmodell entspricht 
dies dem Austausch eines Knotens durch einen anderen Knoten 
oder einen Teilgraphen. Eine andere Methode beruht auf zu- 
satzlicher Hardware-Unterstutzung. Hierbei wird dem Prozessor 
mitgeteilt, bei welchem Befehl das Programm unterbrochen wer- 
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den soil. Der entsprechende Befehl wird dabei ublicherweise 
uber seine Adresse identif iziert - 

Beide Moglichkeiten sind auf die VPU erf indungsgemafi uber- 
tragbar. Ein CIW kann etwa vom Debugger durch ein anderes CIW 
ersetzt werden. Dieses CIW kann z. B. die Registerinhalte in 
den Hauptspeicher kopieren, wo diese entweder mit einem VPU- 
externen Debugger analysiert werden konnen. Alternativ kann 
der Debugger auch auf der VPU ablaufen. 

Weiterhin kann eine Hardware-Unterstutzung im CT vorgesehen 
werden, die CIWs bei deren Request anhand der ID identifi- 
ziert und dann den Debugger aufruft. Zusatzlich kann eine Un- 
terbrechung auch ein einer Kante des Graphen festgemacht wer- 
den, da diese im Gegensatz zu klassischem Programmcode expli- 
zit vorliegen. 

Die oben beschriebene Art des Debugging ist fur klassische 
Prozessoren vollstandig ausreichend, da die Befehle zumeist 
sehr einfach sind. Eine hinreichend feine Auflosung der beob- 
achtbaren Punkte ist gegeben. Weiterhin kann sich der Pro- 
grammierer darauf verlassen, dafi die einzelnen Befehle kor- 
rekt sind. (Da far sorgt Ublicherweise der Prozessorherstel- 
ler.) 

Auf der VPU hingegen ist es dem Programmierer moglich, sich 
die CIWs zu definieren, welche eine Art "Prozessorbef ehle" 
bilden. Dement sprechend konnten die so definierten in sich 
Befehle fehlerhaft sein. Ein Debugging der einzelnen Befehle 
wird also bevorzugt auf eine im folgenden als Microcode- 
Debugging bezeichnete Weise ausgelegt. Microcode-Debugging 
ist so ausgestaltet, dafi der Programmierer Zugriff auf alle 

internen Register und Datenpfade des Prozessors erhalt; es 
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wurde erkannt, dafi der dafur erf order liche Aufwand ohne wei- 
teres durch die gesteigerte Funktionalitat zu rechtf ertigen 
ist . 

Eine Hardware-Unterstutzung hierfur ist moglich, aber sehr 
aufwendig und zu reinen Debugging- Z wee ken nicht sinnvoll. Al- 
ternativ wird daher der Zustand des Prozessors vor dem frag- 
lichen Befehl gesichert werden und die Ausfuhrung des eigent- 
lichen Befehls auf einem Software-Simulator erfolgen. Dies 
ist die nach PACT11 bevorzugte Methode zum Debuggen von VPUs. 
Die Daten und Zustande werden uber Businterf ace, Speicher 
und/oder bevorzugt uber Debug-Interface wie z.B. JTAG an den 
Debugger iibertragen. Bevorzugt kommt ein Debugger nach PACT 21 
zum Einsatz, der zur Abarbeitung des Micro-Debuggings bevor- 
zugt einen Mixed-Mode Debugger mit integriertem Simulator 
enthalt. 

Bei geeignetem Programmiermodell kann der Debugger auch bei 
Auftreten einer Exception innerhalb eines Befehls aufgerufen 
werden. Hierzu ist es sinnvoll, dass die Register auf den Zu- 
stand vor dem Start des Befehls zuruckgestellt werden konnen 
und sonst keine Seitenef f ekte aufgetreten sind. Dann kann der 
fragliche Befehl im Software-Simulator gestartet werden und 
bis zum Auftreten der Exception simuliert werden. 

Besonders bevorzugte Debugging-Mechanismen sind in PACT21 
ausfUhrlich beschrieben. 

Microcode-Debugging kann bevorzugt dadurch realisiert werden, 
dass nach oder wahrend der Abarbeitung eines CIW ein Debug- 
CIW konfiguriert wird, das zunachst samtliche Zustande (z.B. 
in den PAEs) erhalt und diese dann durch eine geeignete Ron- 
figuration der Vernetzungsressourcen in einen externen Spei- 
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cher schreibt. Hierzu kdnnen besonders bevorzugt die in 
PACT11 beschriebenen PUSH/POP Methoden zum Einsatz gelangen. 
Bevorzugt kann dies uber eine Industriestandard-Interf ace, 
wie z.B. JTAG erfolgen. Aus dem Speicher oder uber das JTAG- 
Interface kann dann ein Debugger die Daten ubernehmen und 
ggf. in Verbindung mit einem Simulator (vgl. PACT21) auch 
schrittweise weitersimulieren, wodurch ein Microcode- 
Debugging ermoglicht wird. 

9 Verteilter Konf igurations -Cache 

Aufgrund des zentralen Konf igurations-Caches beim FILMO dau- 
ert es f wenn ein solches, was nicht zwingend ist, verwendet 
wird, verhaltnismaliig lange, bis eine Konf iguration auf die 
einzelnen PAEs einer PAC verteilt ist. Dieser Abschnitt be- 
schreibt nun ein bevorzugtes Verfahren, urn diese Zeit abzu- 
kurzen. Ein ahnliches, alternatives oder zusatzliches Verfah- 
ren ist aus PACT 31 bereits bekannt und ist zu Of f enbarungs- 
zwecken vollumf anglich eingegliedert . 

Dazu erhalt jedes PAE seinen eigenen lokalen Cache. Dieser 
speichert die Konf igurationsdaten verschiedener Konf iguratio- 
nen fur genau dieses PAE. Auch die Tatsache, dafi ein PAE von 
einer Konf iguration keine Daten erhalten hat, wird gespei- 
chert. Fur jede angeforderte Konf iguration kann der Cache da- 
durch eine der folgenden Aussagen treffen: 

- Die Konf igurationsdaten sind im Cache vorhanden. 

- Fur diese Konf iguration werden keine Daten benStigt. 

- Uber diese Konf iguration ist nichts bekannt. 

- Es werden Konf igurationsdaten benotigt, diese sind jedoch 
nicht im Cache verfugbar. (z. B. aufgrund der Lange der Kon- 
f iguration, RAM-Preload etc.) 
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Die letzten beiden Aussagen konnen dabei zusammengef afit wer- 
den. Bei beiden mufi der Code oder die Tatsache, dafi kein Code 
benotigt wird, angefordert werden. Ein Auftrag fur eine Kon- 
figuration wird dabei vom FILMO als Broadcast auf dem Testbus 
an alle PAEs verschickt. Wenn alle PAEs die Konf iguration in 
ihrem lokalen Cache haben, kann diese per Broadcast auf dem 
Configbus gestartet werden. Im Idealfall erfordert der Start 
einer Konf iguration also nur die Obertragung eines einzigen 
Konf igurationswortes . 

Sollte ein PAE nicht uber die Konf igurationsdaten verfiigen, 
mufi dieses an dem FILMO zuruckgemeldet werden. Im einfachsten 
Fall geschieht dies uber ein Reject auf der vorhandendenen 
Leitung. Der FILMO weili dann aufgrund dieses Signals, dafi 
mindestens einem PAE der PAC die Konf igurationsdaten fehlen. 
Er kann dann die kompletten Daten libertragen. Alternativ kann 
auch jedes PAE getrennt einen Request fur die Daten auslosen. 
Hier mufi ein geeigneter Kompromifi zwischen der Anzahl der Re- 
quests und der Menge der zu ubertragenden Konf igurationsdaten 
gefunden werden. Kleine PAC-Grofien sind dabei auch aufgrund 
der geringeren Latenz auf dem Konf igurationsbus von Vorteil. 

Aufbau des Caches 

Ein Cache besteht immer aus zwei Teilen. Der eine Teil ent- 
halt die eigentlichen Daten (hier die Konf igurationsworte, 
0902) , der andere Teil enthalt Verwaltungsinf ormation (hier 
die enthaltenen Konf igurationsnummern sowie ihr Alter, 0901) . 

Zunachst wird der Verwaltungsteil beschrieben. 

Wiinschenswert ist r dafi die am langsten nicht mehr benutzte 

Konf iguration aus dem Cache entfernt wird, wenn dies notwen- 
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dig wird. Solange nur neue Konf igura-tionen angefordert wer- 
den, sind die Eintrage im FIFO korrekt sortiert. Sollte eine 
Konf iguration angefordert werden, fur die bereits ein Eintrag 
im FIFO vorhanden ist, mufi dieser Eintrag aus dem FIFO ent- 
fernt werden. Er wird dann wieder neu am Ende eingefugt. Eine 
beispielhaft fur diesen Zweck modifizierte FIFO-Stufe zeigt 
Figur 7. Die schraf f ierten Module sind dabei zusatzlich zu 
einer normalen FIFO-Stufe nach dem Stand der Technik. Sie 
vergleichen mittels des Vergleichers (0701) die Konfigurati- 
onsnummer des Dateninhaltes der Stufe mit der geforderten 
Konf igurationsnummer und erzeugen bei Gleichheit ein ack 
(0702) fur die Stufe. Damit werden die Daten der Stufe uber 
den Multiplexer (0703) gelesen und alle anderen Werte rut- 
schen urn eine Stufe nach. Die Eintrage in diesem FIFO enthal- 
ten aufier der Konf igurationsnummer weitere Inf ormationen . 
Dies ist entweder ein Zeiger (Adresse) auf die Konfigurati- 
onsdaten oder eine der beiden Moglichkeiten "keine Daten er- 
forderlich" (z. B. als 0 codiert) bzw. "Daten mussen angefor- 
dert werden" (z. B. -1) . Die Zusammenschaltung mehrerer Stu- 
fen zeigt Figur 8. Dabei wird die Read-Chain mit der gefor- 
derten Konfigurationnummer und dem Status -1 initialisiert . 
Dieser Wert kommt unverSndert genau dann am Ausgang der Read- 
Chain heraus, wenn die Konf igurationsnummer nicht im FIFO ge- 
speichert ist. Damit kann der Ausgang der Read-Chain in jedem 
Fall dazu verwendet werden, die Konf igurationsnummer auf den 
FIFO zu schreiben. Das Signal ack_in wird dann aktiviert, 
wenn der FIFO voll ist und sich die gesuchte Konf igurations- 
nummer nicht im FIFO befindet. Dies ist der einzige Fall, bei 
welchem der alteste Eintrag aus dem FIFO entfernt werden muft, 
weil der Verwaltungsspeicher voll ist. Der eigentliche Daten- 
speicher wird aufgrund der unterschiedlichen Anzahl der Kon- 
figurationsworter pro Konf iguration als verkette Liste orga- 

nisiert. Andere Im-plementierungen sind denkbar. Eine verket- 
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tete Liste kann als RAM einfach dadurch implementiert werden, 
dali zusatzlich zu den Daten jeweils die Adresse des nachfol- 
genden Datenwortes abgelegt wird. 

Zusatzlich zu den Listen fur die eigentlichen Konf igurationen 
wird eine Frei-Liste gefuhrt, in der alle nicht benutzten 
Eintrage auf gefuhrt sind. Diese mufi nach einem Reset zunachst 
initialisiert werden. 

Figur 9 zeigt einen moglichen Cache-Inhalt wahrend des Be- 
triebs. Freie Eintrage im Datenspeicher sind dabei weifi, von 
einer Konf iguration belegte schraffiert unterlegt. Konf igura- 
tionen mtissen dabei nicht auf auf einanderf olgenden Adressen 
liegen. Konf iguration 18 besitzt keine Konf igurationsdaten, 
deshalb fuhrt auch kein Zeiger in den Datenspeicher. 

Eine neue Konf iguration wird auf die Freiliste in den Daten- 
speicher geschrieben. Dabei wird die Zeigerinf ormation des 
Datenspeichers nicht modifiziert. Lediglich fur das letzte 
Datenwort ein Konf iguration wird die Zeigerinformation veran- 
dert, urn anzuzeigen, dafi die Liste jetzt hier andert. Der 
Zeiger auf die Freiliste wird auf den nachsten Eintrag ge- 
setzt . 

Es kann vorkommen, dass der Platz in der Freiliste nicht aus- 

reicht, urn die ankommenden Konf igurationsdaten vollstandig 

auf zunehmen . In diesem Fall muli entschieden werden, ob eine 

alte Konfiguration aus dem Datenspeicher entfernt wird oder 

ob die aktuelle Konfiguration nicht in den Cache aufgenommen 

werden soli. Im letzteren Fall werden die nachf olgenden Kon- 

figurationswdrter verworfen. Da keine Zeiger verandert wur- 

den, bleibt die Freiliste wie zuvor, lediglich einige unbe- 

nutzte Datenwerter besitzen einen anderen Wert. Die Entschei- 
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dung, welche Konf iguration nicht mehr im Cache liegen soil 
(die alteste Oder die aktuelle) kann an der Anzahl der be- 
reits geschriebenen Konf igurationsworte festgemacht werden. 
Es macht wenig Sinn, mehrere gecachete Konf igurationen zu 
entfernen, urn Platz fur z. B. eine lange RAM- Initialisierung 
zu schaffen. 

Wenn die alteste Konf iguration entfernt werden soli, wird sie 
dem FIFO entnommen. Der Zeiger des letzten Eintrags der Frei- 
liste wird auf den dem FIFO entnommenen Wert gesetzt. Ab die- 
ser Adresse kann nun in der gewohnten Weise weiterkonf igu- 
riert werden. 

Figur 10 zeigt dies an einem Beispiel. Neu konfiguriert wer- 
den soil die Konf iguration mit der Nummer 7. In Figur (a) ist 
die Freiliste vollstandig belegt worden. Es wird entschieden, 
die alteste Konf iguration (Nr. 5) vom Cache zu entfernen und 
Konf iguration Nr. 7 weiter auf den Cache zu schreiben. Dazu 
wird der Zeiger am Ende der Freiliste auf den Start der ehe- 
maligen Konf iguration 5 umgesetzt. Dadurch wird die Freiliste 
wieder verlangert und es steht wieder Platz fur neue Konfigu- 
rationsworte zur Verfugung. Die in diesem Schritt betroffenen 
Speicherteile sind in Figur (b) gegendiagonal schraffiert. 
Bei geeigneter Aufteilung des Speichers kann dies in einem 
Takt erfolgen. Mit dem letzten Konf igurationswort wird der 
entsprechende Zeiger auf Ende gesetzt und der Freizeiger auf 
den nachsten Eintrag. Platz im Datenspeicher wird nicht nur 
dann wieder freigegeben, wenn dieser durch die Aufnahme einer 
neuen Konf iguration benotigt wird. Auch wenn der Verwaltuns- 
speicher voll ist und deswegen ein Eintrag vom Verwaltungs- 
speicher entfernt wird, muli die Freiliste im Datenspeicher 
angepaJit werden. Hierzu muli entweder der Zeiger am Ende der 

Freiliste oder am Ende der f reiwerdenden Konf iguration ange- 
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pafit werden. Beide Inf ormationen stehen bisher nicht zur Ver- 
fugung. Man kann sich jetzt durch eine der Listen durchbewe- 
gen, bis das Ende erreicht wird. Dies ist jedoch zeitauf wen- 
dig. Alternativ wird im Verwaltungsspeicher ein zusatzlicher 
Zeiger auf das jeweilige Ende einer Konf iguration abgelegt. 
Nun ist die Modif ikation einfach moglich. Der Freizeiger er- 
halt die Startadresse der alten Konf iguration, und der Zeiger 
beim letzten Konf igurationswort im Datenspeicher wird auf den 
Freizeiger gesetzt. 

Dies wird in Figur 11 verdeutlicht . Die Zeiger auf die Konfi- 
gurationsenden sind dabei gestrichelt eingezeichnet . UnterFi- 
gur (a) zeigt die Situation vor dem Loschen, UnterFigur (b) 
die danach. 



10 Optimierung der Busallokation 

Derzeit werden die Busse explizit vom Router festgelegt. Das 
kann dazu fiihren, daft zwei Konf igurationen sich auf einem Bus 
uberlappen und deswegen nicht gleichzeitig ablaufen konnen, 
obwohl insgesamt genugend Busse zur Verfugung stunden. 

Es wurde erkannt, daft es algorithmisch unerheblich ist, uber 
welchen Bus eine Verbindung gefuhrt wird. Deshalb wird vorge- 
schlagen, eine Busallokation dynamisch von der Hardware 
durchfiihren zu lassen und die Hardware mit einem geeigneten 
dynamsichen Busallokator zu versehen. Eine Konf iguration spe- 
zifiziert dazu nur noch, daft sie eine Verbindung von Punkt A 
nach Punkt B innerhalb einer Zeile benotigt. Welcher der vor- 
handenen Busse dann tatsachlich verwendet wird, wahlt ein Ar- 
biter in der Hardware aus. Dieser kann pro Zeile entweder 
verteilt Uber Nachbarschaf tsbeziehungen oder an zentraler 

Stelle fur die Zeile arbeiten. Zusatzlich konnen Busse dyna- 
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misch umgelegt werden. Dabei konnen zwei kurze nichtuberlap- 
pende Busse, die aufgrund fruherer Belegung auf unterschied- 
liche Busnummern konfiguriert wurden, bei Freiwerden von Res- 
sourcen auf dieselbe Busnummer umgelegt werden. Dadurch wird 
Platz geschaffen fur zukunftige langere Verbindungen. 
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Rekonfigurierbarer General Purpose Prozessor 
Patentanspruche 

1. Prozessor mit einem rekonf igurierbaren Feld von datenver- 
arbeitenden Zellen und einem Registermittel, dadurch ge- 
kennzeichnet, dafi das Registermittel ein Datenstromspei- 
chermittel aufweist, das dazu ausgelegt ist, einen Daten- 
strom bzw. Teile davon zu speichern. 

2. Prozessor nach dem vorhergehenden Anspruch, dadurch ge- 
kennzeichnet, dafi ein Registermittelalloziermittel 
und/oder ein Registermittelf reigabemittel vorgesehen ist, 

3. Prozessor nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, dafi das Registeralloziermittel dazu ausge- 
bildet ist, uber Rekonf igurationen hinweg erhalten zu 
bleiben. 
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4. Prozessor nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft als Registermittel eine, gegebenen- 
falls modifizierte RAM-PAE, vorgesehen ist. 

5. Prozessor nach einem der vorhergehenden Anspruche , dadurch 
gekennzeichnet, daft fur Schreib- und Lesezugriff ausgebil- 
dete Registermittel vorgesehen sind, insbesondere unter 
Implementierung eines virtuellen FIFO-Trennlinienmittels . 

6. Prozessor nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft weiter zumindest eine Speichereinheit 
vorgesehen ist, die zur Verwendung als Stack ausgebildet 
ist, wobei sie insbesondere dazu ausgebildet ist, einen 
Stack-Under- und/oder Overf lowzustand anzuzeigen, insbe- 
sondere einer Betriebssystemeinheit . 
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